iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 17
0
自我挑戰組

自動化技術在生活與工作上的應用系列 第 23

[Day23 ] 自動化的萃取PDF資料(Base Python)

  • 分享至 

  • xImage
  •  

PDF是一個不能複製的檔案格式
若我們必須得取得內容該怎辦呢? 可以右轉去Google 這問題 (誤XD
其實也可以在格式不拘的形式取得資料
而在Python中有一種套件 叫做 pyPDF2
這時有看前面的文章,或對PYTHON 有一定了解就知道
我們又要pip install "套件了"
https://ithelp.ithome.com.tw/upload/images/20190926/20103516TUYPQFYtaN.jpg

程式
import PyPDF2
PDFObj = open('test.pdf', 'rb')
PDFReader = PyPDF2.PdfFileReader(PDFObj)
print(pdfReader.numPages)
#可以取得內容頁數
==> 19
PageObj = pdfReader.getPage(0)
#可以取得內容文字(第幾頁)
PageObj.extractText()

我們也可以做進階一點 針對取出來的內容包含加密的話
我們做Decrypting動作
#先判斷是否有加密
pdfReader.isEncrypted
==>True
代表訊息有加密我們可以嘗試解密
pdfReader.decrypt('rosebud')

名天分享更多pdf相關的python運用


上一篇
[Day 22]自動化來控制開啟檔案
下一篇
[Day24] 自動下載Youtube的影片(base python)
系列文
自動化技術在生活與工作上的應用29
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言